Обсуждение:Количественный анализ экспрессии генов

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

К разделу 1 Методы

[править код]

В разделе Методы странные переносы строк. Много формул, изложение не систематизировано. "Ввиду стохастического изменения количества РНК от клетки к клетке" - вероятно дело скорее в случайном характере выбора молекул РНК при секвенировании? излогается метод cufflinks, хотя начать стоило бы с более простой модели - подсчета всех ридов что пересеклись с данным геном (HTseq). Название раздела "cufflinks" (особенно без объяснения того что это одна из многих программ) - не годится. Кроме cufflinks есть еще куча вариантов. "Систематические ошибки и воспроизводимость" - неплохо бы написать про биологическую вариабельность, необходимость реплик, как технических так и биологических. Раздел про микрочипы - непонятно зачем писать как делают чипы, это статья про экспрессию а не про производство чипов. При этом как из чипов определяется уровень экспрессии (лог интенсивности, нормализация) - не написано. Неплохо бы прояснить несколько моментов: а) экспрессия гена = sum(экспресии изоформ) б) "находят применение в диагностике и исследовании различных заболевани" - нужна ссылка. Вообще раздел Применение очень беден - дифэкспрессия используется повсеместно, неплохо бы привести несколько примеров (отличия между тканями, видами, в ответе на стресс, временные ряды - с ссылками разумеется). Iaa.aka 07:25, 24 мая 2013 (UTC)[ответить]

К разделу 3 Сравнение экспрессии генов - до попарного сравнения

[править код]
  • "differential (two samples) analysis of gene expression" - зачем тут английский текст?
  • иджентичных
  • RPKM - Read Per Kilobase per Million mapped reads - необходимо перевести на русский
  • вариабельность бывает биологическая и техническая. Биологическую собственно и изучают, но иногда она бывает и между образцами относящимися к одной экспериментальной группе (это может происходить как из-за генетических факторов так и из-за факторов среды). Тогда ее надо учитывать (говорить что она мешает - не совсем корректно, это примерно как говорить что принцип неопределенности мешает изучать физику)
  • Нормализация - тут зачем-то перечислены причины технической вариабельности (хотя в тексте написано что будет и биологическая) к нормализации это не имеет отношения. Тут надо объяснить зачем нужна нормализация (в первую очередь для контроля за размером библиотеки и (в случае чипов) кол-вом РНК/длительностью экспозиции), в чем проблема линейной нормализации (чипы - нелинейная зависимость концентрация/интенсивность, РНК-сек - возможный сильный вклад в размер библиотеки маленькой группы рнк (рРНК, митохондриальная, рибосомальные белки)). Надо не забыть что можно сравнивать один и тот же ген в нескольких образцах - тогда на его длину можно не нормировать, если сравнивать два гена в одном образце - нужно нормировать. Тут надо коротко перечислить методы нормализации (квантильная, деление на суммы, деление на суммы отбросив крайние квантили, деление на медиану отношения (Huber))

к разделу 3.3 парное сравнение

[править код]
  • Начать раздел надо с определения, что-то вроде: - сравнение двух групп образцов и поиск генов, чьи уровни экспрессии значимо отличаются между двумя группами.
  • "При анализе данных RNA-Seq, получаемые значения количества картируемых фрагментов натуральные, для анализа случайную величину принимают распределенной по Пуассону, как обратное биномиальное и даже бета-биномиальное." - это предложение очень труднопонимаемо.
  • раздел написан крайне путано. Наведите порядок в изложении. разделите методы на основанные на дискретных и непрерывных распределениях. Не забудьте что вторые можно точно также использовать для РНК-сек. В случае нормального распределения дисперсия является одним из параметров распределения, поэтому с ней нет особых проблем, в случае Пуассона - дисперсия равно среднему, что неработает из-за биологической вариабельности, поэтому используют другие распределения (негативно биномиальное). регуляризованный т-тест - фактически то же самое что методы в edgeR и deseq для определения дисперсии используя информацию обо всех генах. Объедените это в один раздел.
  • t-test - формулы не нужны, сделайте ссылку на соответствующую страницу.
  • "(Картинка???)" - действительно ???
  • Регуляризованный t-тест - нужно ясно написать что он позволяет использовать информацию о других генах для оценки вариабельности данного - и экономить таким образом на репликах. Неплохобы сократить число формул - особенно если
  • "Исходными данными методов/программ анализа дифференциально экспрессирующихся генов являются матрицы, содержащие данные о количестве фрагментов, картированных на ген/экзон для каждого образца в эксперименте RNA-Seq" - куда делись чипы?
  • "модели Пуассона для отсчетов," - каких еще отсчетов?
  • "(гены???)" - ??????
  • почему-то все что касается дискретных распределений идет в главе Модели.

к разделу 3.5 Множественное сравнение

[править код]
  • множественно сравнение возхможно либо как много попарных либо как построение модели учитывающей все факторы.
  • Однофакторная линейная модель - почему только однофакторная? почему в перечислении при этом указаны только парные сравнения, хотя раздел вроде про множественное сравнение? как определяется значимость (ответ - анова)?
  • Обобщенная линейная модель - по использованию НИЧЕМ не отличается от обычной линейной, кроме того что работает с бОльшим семейством распределений. Не надо писать тут формул - дайте ссылку на соответствующую страницу.
  • "Данная модель позволяет быстро сравнивать несколько групп, а так же делать более сложные сравнения, например, сопоставлять значения экспрессии генов одного эксперимента и усредненных значений двух других экспериментов и т.п." - получается что GLM позволяет это делать а lm - нет. Это не верно, в плане сложности моделей lm и glm ИДЕНТИЧНЫ.
  • все последующие разделы касаются способов анализа lm и (при замене analysis-of-variance на analysis-of-deviance) glm. Однако понять это из текста решительно невозможно.

риды - безграмотный жаргон

[править код]

Вместо термина "рид" - лучше использовать термин "прочтение" --Sirozha.ru 13:13, 31 января 2014 (UTC)[ответить]

перевод RPKM

[править код]

прочтения на тысячу оснований на миллион картированных прочтений

По новым исправлениям

[править код]

Что нужно еще исправить: